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fi ”要 : [目的 /意义 ] 随 着 农业 知识 图 谱 数 据 规模 的 增长 ， 图 谱 的 节点 和 关系 复杂 度 不 断 提升 ， 这 对 其 训练 和 表示 提出 了 新 的 
挑战 。 在 此 背景 下 ， 探 索 如 何在 保全 知识 图 谱 结构 的 同时 降低 资源 消耗 并 加 快 吝 入 速度 具有 重要 的 研究 和 应 用 意义 。[ 方 法 / 过 
程 ] 针 对 这 一 问题 ， 本 研究 提出 了 一 种 基于 HARP 框架 的 农业 知识 图 谱 层次 表示 模型 。 该 模型 利用 农业 知识 图 谱 的 层次 性 特征 ， 
采用 一 种 改进 的 基于 关系 路 径 随 机 行走 策略 ， 有 效 地 保留 了 图 i 5 点 的 层次 性 和 非 对 称 关 系 结构 。 [结果 / 结论 ] 
1) 5 HARP 框架 相 比 ， 使 用 LEIDEN 的 HRWP 模型 能 更 好 地 保留 空间 结构 ， 并 快速 收敛 了 速度 ; 2) 采用 HRP 的 融合 模型 训练 
间 基 本 小 于 二 者 训练 时 间 总 和 ， 且 对 原 算法 时 间 复 杂 度 影响 较 小 ; 3) 结合 HRWP 的 传统 算法 各 指标 平均 提高 2%， 非 神经 网 络 
模型 有 显著 提升 。 综 上 ， 认 为 模型 可 以 准确 表示 农业 知识 图 谱 并 有 效 缩短 训练 时 间 。 
关键 词 : 知识 图 谱 ; 随机 游 走 ; 表示 学 习 ; HARP 框架 
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66-77. 
二 者 的 关系 。 鉴 其 具备 很 好 的 信息 组 织 和 推理 能 力 ， 
1 引言 知识 图 谱 现 已 成 为 知识 领域 智能 服务 的 重要 基础 设施 


之 一 申 。 然 而 ， 这 种 基于 三 元 组 的 存储 结构 通常 会 受到 

知识 图 谱 是 一 种 有 效 反映 现实 信息 的 知识 结构 ,已 ”数据 稀 玻 的 影响 ， 在 语义 计算 或 关系 推理 时 效果 并 不 
被 广泛 应 用 于 知识 工程 各 领域 四， 通常 用 三 元 组 0 ,r ,i 理想。 因此 ， 在 实际 使 用 中 通常 利用 知识 表示 学 习 将 
的 形式 表示 ， 其 中 及 、t 分 别 表示 头 和 尾 实体 ,，r 表示 。 ”实体 和 关系 表征 为 低 维 稠密 向 量 ， 进 而 提升 知识 获取 、 
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融合 和 推理 的 性 能 。 

随 着 数据 组 织 技术 不 断 发 展 和 知识 图 谱 规 模 的 进 
一 步 增长 ， 现 阶段 对 大 规模 图 谱 训 练 产生 了 更 高 要 求 。 
传统 知识 图 谱 表示 算法 不 仅 需 要 大 量 的 训练 时 间 ， 而 
且 还 会 消耗 海量 内 存 资源 59。 另 外 ， 现 有 大 型 图 谱 快 


陈 彩 铭 ， 冯 建 中 ， 白 林 燕 , E S, WRN, Sb = 


基于 HARP 框架 的 农业 知识 图 谱 表 示 模 型 研究 


bedding), WE 1 所 示 。 知 识 图 谱 的 嵌入 也 被 称 为 知识 
表示 学 习 (KRL)。 相 较 于 one-hot 编码 ， 知 识 表示 学 
习 能 显著 提升 图 谱 上 作业 效率 。 知 识 图 谱 骨 入 通常 包 
括 3 个 步骤 : 定义 实体 与 关系 的 形式 空间 。 实 体 一 
般 被 定义 为 连续 向 量 ， 考 虑 到 不 确定 性 也 可 采用 多 元 


速 学 习 模型 往往 过 于 关注 局 部 而 忽视 了 长 距离 的 全 局 
信息 ， 进 而 导致 租 入 结果 无 法 揭示 语义 层级 等 重要 关 
系 中 。 为 了 对 大 规模 知识 图 谱 的 表示 学 习 模 型 进行 快速 
训练 ， 同 时 保留 原 图 中 概念 的 层级 结构 ， 实 现 更 高 效 
的 图 谱 表示 学 习 ， 本 文 提出 基于 网 络 层次 表示 学 习 框 
架 (Hierarchical Representation Learning for Networks, 
HARP) 的 知识 图 谱 快 速 分 层 游 走 学 习 模型 (Hierarchical 
Random Walk Representation Learning Model，HRWP)。 
模型 使 用 分 层 随机 游 走 实现 知识 图 谱 的 初始 表示 。 同 
时 ， 考 虑 到 知识 图 谱 中 关系 学 习 的 问题 ， 模 型 将 关系 
KAMAL TAG ESA RA. TEBE, Be 
型 采用 阻塞 随机 游 走 (Frustrated Random Walk, FRW) 
实现 采样 ， 有 效 避 免 了 节点 沉没 并 实现 关系 的 不 对 称 
乱入 ， 使 模型 能 更 好 地 与 其 他 学 习 模 型 融合 。 

综 上 所 述 ， 本 文 的 贡献 主要 体现 在 以 下 3 点 : Olè 
出 了 一 种 大 型 农业 图 谱 快速 学 习 的 模型 ， 折 宽 了 基于 
随机 游 走 图 借入 算法 的 应 用 场景 ; 包 通 过 分 层 游 走 与 
改进 采样 更 好 地 捕捉 实体 间 的 层级 关系 和 非 对 称 语 义 ， 
优化 了 现 有 模型 关系 学 习 不 足 的 问题 ; 加 在 真实 数据 
集 上 进行 定量 实验 ， 验 证 了 本 文 提 出 的 农业 知识 图 谱 
表示 学 习 快 速 训练 模型 的 性 能 。 实 验 结 果 表 明 ， 该 模 


高 斯 分 布 建 模 归 ,关系 可 以 表示 为 向 量 、 和 矩阵 、 张 量 以 
及 高 斯 分 布 等 。 加 为 三 元 组 (如 r, 站 定义 评分 函数 ， 一 
般 定义 为 距离 或 语义 匹配 度 。@@ 最 大 化 置信 和 度 训练 学 
习 实 体 及 关系 向 量 的 表示 。 
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(a) Input graph (b) Output representation 


图 1 lik Aas fail 
Riel Diagram of graph embedding 

随 着 数据 科学 的 发 展 和 大 数据 、 云 计算 等 技术 的 
应 用 ， 学 术 及 工业 界 针 对 不 同 应 用 场景 提出 不 同 的 知 
识 图 谱 舰 和信 模型 ， 一 般 可 分 为 基于 翻译 模型 、 基 于 语 
义 匹配 和 基于 神经 网 络 的 模型 。 翻 译 模 型 将 实体 h、: 
表征 为 向 量 ,， KA r KRAE h, t 的 规则 : TransE 
将 实体 和 关系 表示 为 同一 空间 中 的 向 量 ， 关 系 被 解释 
为 头 尾 实体 间 的 平移 向 量 中 ;TransF 和 Transa 等 模型 
放宽 了 htr~xt 的 基础 假设 ， 使 得 内 入 结果 更 加 灵活 山中 ; 
RotatE 将 实体 和 关系 建 模 到 复数 空间 ， 将 关系 描述 为 


型 可 以 有 效 地 集成 到 包括 TransE 、RotatE 等 表示 学 习 
算法 中 ， 为 不 同 应 用 场景 中 的 下 游 任务 提供 更 好 的 表 


So ot: FA 
示 结 果 。 


节点 位 置 表示 可 以 反映 图 的 结构 信息 ， 实 现 标签 
传播 四 、 项 目 推荐 和 主题 搜索 等 功能 ， 是 图 研究 的 基 


复数 域 空 间 的 旋转 变换 ， 对 非 对 称 关 系 和 关系 组 合 的 
表示 上 具备 良好 的 效果 上 中。 语义 匹配 模型 采用 基于 相 
似 性 的 打分 函数 ， 通 过 匹配 实体 和 关系 在 向 量 空间 的 
潜在 语义 衡量 事实 成 立 的 可 能 性 : RESCAL 模型 用 向 
量 表 示 实 体 ， 用 和 矩阵 表示 关系 ， 通 过 自 定义 的 打分 函 
数 捕 提 三 元 组 内 部 的 交互 关系 中; DistMult 通过 限制 关 
系 矩 阵 为 对 角 和 矩阵 对 RESCAL 模型 简化 中 ;ComplEx 
在 DistMult 的 基础 上 引入 复数 空间 并 利用 非 对 称 打分 


本 问题 。 现 阶段 网 络 图 包括 海量 边 和 节点 ， 因 此 直接 
操作 会 耗费 过 多 资源 。 目 前 的 解决 方法 是 将 高 维 稀 玻 
的 网 络 投影 到 低 维 稠密 空间 ， 即 图 僚 入 (Graph Em- 


函数 更 好 地 建 模 非 对 称 关 系 四 。 此 外 ， 许 多 知识 图 谱 
藤 入 也 引入 了 神经 网 络 的 方法 : R-GCN 首次 将 GCN 
引入 到 图 谱 的 关系 表示 学 习 中 心 ; SACN 引入 了 基于 
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ConvE 的 加 权 卷 积 网 络 WGCNI9。 

在 实际 应 用 中 ，NELL (Never-ending Language 
Learning) 项 目 将 基于 随机 游 走 的 路 径 排 名 算法 (PRA) 
作为 关系 推理 模块 四; Google 的 Knowledge Vault 项 目 
利用 潜在 因素 模型 和 随机 游 走 模型 结合 的 混合 方案 实 
现 知识 评估 任务 上 四。 可 见 ， 随 机 游 走 模型 具备 并 行 运 
算 的 条 件 ， 更 适合 大 规模 知识 图 谐 。 因 此 ， 本 文采 用 
随机 游 走 的 思路 可 以 满足 实际 应 用 中 对 大 规模 知识 
谱 的 快速 训练 要 求 。 


3 可 行 性 分 析 


分 层 散 入 能 有 效 保留 知识 图 谱 层 次 信息 ， 对 理解 
实体 关系 和 知识 图 谱 补 全 等 任务 具有 重要 意义 中 。 分 层 
骨 入 使 用 低 维 向 量 降低 计算 复杂 度 以 提高 大 规模 知识 
图 谱 处 理 效 率 。 同 时 ， 将 实体 和 关系 映射 到 低 维 空间 
的 特性 增加 了 表示 的 直观 性 和 解释 性 。 农 业 知 识 包含 
如 物种 、 生 态 系统 等 层级 概念 ， 具 有 自然 的 层次 结 
构 中 ， 如 图 2 所 示 ， 因 此 构建 的 知识 图 谱 具 备 良 好 的 
分 层 特征 。 


|| taam | 


图 2 部 分 农业 知识 体系 结构 


Fig.2 Part of the agricultural knowledge structure 


为 验证 农业 知识 图 谱 的 层次 性 ， 本 文选 取 层 聚 类 
系数 和 模块 度 两 个 指标 。 在 图 论 中 ， 节 点 的 度 是 指 与 
该 节点 直接 相连 的 边 的 数量 。 节 点 i 的 度 分 为 人 度 
(In-degree) 和 出 度 (Out-degree)。 入 度 表示 指向 节点 i 
边 的 数量 ， 出 度 表示 从 节点 i 指出 边 的 数量 。 节 点 聚 类 
系数 CQ 计算 节 点 i 的 邻居 节点 之 间 存 在 的 边 与 可 能 存 
在 的 边 的 比例 ， 计 算 公 式 如 (1) 所 示 。 其 中 ，EQ) 是 
节点 的 邻居 节点 之 间 的 边 数 ，% 是 节点 i 的 度数 。 
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2E(i) 
k(i)x(k(i)-1) 

社区 模块 度 用 来 描述 节点 间 聚 合 的 倾向 ， 较 高 的 
模块 度 表明 图 中 存在 明显 的 社区 结构 。 模 块 度 的 定义 
为 公式 (2) 所 示 。 其 中 < 表示 社区 ; m 表示 图 内 总 边 
数 ; .表示 社区 内 节点 度 之 和 ; y 表示 分 辨 率 参 数 ，y 
越 大 代表 社区 数量 越 多 。 


C@= (1) 


H 
0-5 Die “1541 
对 已 构建 的 农业 知识 图 谱 层 次 性 进行 分 析 ， 并 选 
择 相 同 节点 和 边 数量 的 随机 图 进行 对 比 ， 其 中 统计 聚 
类 系数 的 平均 值 与 社区 间 模块 度 如 表 1 所 示 
表 1 农业 知识 图 谱 层 次 性 评估 


(2) 


Table 1 Agricultural knowledge graph hierarchy evaluation 


编号 图 名 称 聚 类 系数 平均 模块 度 
1 农业 知识 图 谱 0.499 0.357 
2 随机 图 -1 0.297 0.014 
3 随机 图 -2 0.307 0.040 
4 随机 图 -3 0.300 0.027 


从 数据 上 看 ， 已 有 农业 知识 图 谱 的 聚 类 系数 为 
0.499， 明 显 高 于 随机 图 -1(0.297)、 随 机 图 -2(0.307) 和 
随机 图 -3(0.300)。 这 表明 农业 知识 图 谱 中 节点 更 倾向 
于 形成 紧密 的 群 组 ， 而 随机 对 照 组 中 的 节点 则 较 少 形 
成 ; 已 有 农业 知识 图 谱 的 平均 模块 度 为 0.357， 远 高 于 
随机 图 -1(0.014)、 随 机 图 -2(0.040) 和 随机 图 - 3(0.027)。 
这 说 明 农业 知识 图 谱 中 的 社区 结构 更 加 显著 ,而 随机 
对 照 组 中 的 社区 结构 较 弱 ， 可 见 农 业 知 识 图 谱 具 有 更 
明显 的 分 层 结构 特征 。 此 外 ， 不 同 数据 集 下 聚 类 系数 
与 节点 占 比 关系 如 图 3 所 示 。 显 然 ， 随 机 图 谱 中 节点 
主要 分 布 在 低 聚 类 区 间 ， 相 反 农 业 知识 图 谱 较 随 机 图 
谱 相 比 各 聚 类 系数 间 分 布 较 均匀 ， 聚 类 效果 显著 。 因 
此 可 认为 其 产生 的 分 层 效 果 是 整体 特性 ， 而 非 是 由 某 
些 特 殊 节 点 呈现 出 的 特征 。 


4 模型 介绍 


本 部 分 将 结合 网 络 层次 表示 学 习 范 式 (HARP) 详 
细 介 绍 改 进 算法 的 具体 内 容 和 流程 。 在 分 别 介绍 分 层 


0.1 0.2 0.3 04 0.5 0.6 07 


0.1 0.2 0.3 04 05 0.6 07 
聚 类 系数 


图 3 不 同 聚 类 系数 下 各 数据 集中 节点 占 比 
Fig.3 Node proportion of each dataset under different clustering 


coefficients 


表示 算法 、 改 进 随机 游 走 算法 和 LEIDEN 社区 发 现 算 
法 后 ， 本 章 将 说 明 如 何在 HARP 框架 下 利用 知识 图 谱 
中 不 同 维度 的 结构 关系 进行 快速 学 习 ， 并 尽 可 能 保持 
原 图 语义 结构 和 关系 的 准确 性 和 完整 性 。 

对 后 文 所 需 符 号 和 定义 做 出 说 明 : 将 图 表示 为 C= 
(V, E), EP yV 代表 点 集 ，E 表示 边 集 ; i, j 等 表示 图 
中 不 同 顶点 ，e; 为 连接 点 i, 7 的 边 ; 将 图 的 邻接 矩阵 
WEA, HEROI, Ai, j 之 间 存 在 边 ， 则 4; 为 ey 
的 权重 wj, T 4 产 0。 


4.1 网 络 层 次 表示 学 习 模 型 


层次 表示 学 习 含 3 个 步骤 四， 图 粗 粒度 化 
(Graph Coarsening)。 将 原 图 G 通过 算法 粗 粒度 化 ， 得 
到 一 系列 规模 逐渐 减 小 的 图 Go, G1,… , Go ORRY 
习 。 在 规模 最 小 的 GEKA. HAF IJ 和 | 可 都 很 小 ， 


KE, DER, AAR, E Sl, WRN, 4b 军 
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因此 可 以 快速 学 习 到 较 好 的 表示 结果 。@ 表 示 提 升 
(Representation Refinement)。 通 过 较 小 网 络 的 舱 入 结 
果 迭 代 求 得 下 一 级 网 络 的 僚 入 表示 。 有 具体 而 言 ， 对 于 
每 个 C， 将 Gi+1 的 嵌入 向 量 作为 G 中 节点 的 初始 向 
量 ， 然 后 继续 使 用 能 入 函数 表征 G 中 每 个 节点 ， 直 到 
得 到 Co， 即 原 网 络 的 藤 入 向 量 。 


4.2 改进 随机 游 走 算法 


随机 游 走 是 从 某 一 起 点 出 发 ， 按 照 一 定 概 率 向 邻 
近 节 点 转移 直至 到 达 终 点 的 过 程 。 简 单 随机 游 走 利用 
古典 概 型 ， 定 义 转移 关系 如 公式 (3)。 


中 
Zo, A, #0 and j #e T 
0 4=0orj=e 

由 于 简单 随机 游 走 的 采样 模型 利用 对 称 结构 定义 
节点 间 转 移 概 率 ， 因 此 无 法 表示 图 谱 中 非 对 称 关系 ， 
同时 会 产生 “沉没 效应 ”， 使 部 分 重要 节点 的 圣 入 结 
产生 偏 移 @。 以 图 4 为 例 ， 假设 “植物 ”是 目标 ,简单 
随机 游 走 最 快 找到 “利他 素 ” 和 节点, 但 显然 “ 陆 生 植 
物 ” 和 “水 生 植 物 ” 与 “植物 ”更 接近 。 这 是 由 于 
“利他 素 ” 无 其 他 邻居 而 终止 游 走 ， 使 命中 概率 变 高 。 
可 见 简单 随机 游 走 通常 不 能 反映 现实 情况 和 实际 需求 。 


© © 


eo © 


图 4 部 分 植 作物 图 谱 示意 
Fig.4 Part of the planting crop graph 
为 改进 上 述 问题 ， 改 进 算法 以 简单 随机 游 走 为 基 
础 ， 对 采样 模型 转移 矩阵 By (BC HE 
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oO 


By= DD, 


A, #0 and i,j #e 


(4) 
0 A, =0 or i, j =e 
其 中 ，D=wx。 定 义 i 问 j BNE @/D,, j 
接收 i 的 概率 为 @;/D;。 该 采样 方式 可 以 保证 度 更 高 的 
出 发 点 更 容易 被 接收 。 不 同 于 简单 随机 游 走 ， 具 有 阻 
塞 机 制 的 改进 随机 游 走 算法 的 起 始点 有 一 定 概 率 被 终 
点 拒绝 留 在 原 地 。 


4.3 LEIDEN 聚 类 算法 


LEIDEN 是 以 LOUVAIN 算法 为 基础 ， 基 于 多 层次 
模块 度 (Modularity) 优化 的 非 重 至 社区 聚 类 算法 。 一 
个 好 的 划分 表现 为 社区 内 部 节点 的 相似 度 较 高 ， 而 在 
外 部 的 相似 度 低 。LEIDEN 初始 化 每 个 节点 为 单独 社 
又 ， 尝 试 将 节点 i 分 配 到 邻 社区 ， 计算 模 块 度 增益 。 
选 增益 最 大 的 节点 加 入 相 邻 社区 并 细 化 且 分 区 不 改变 。 
细 化 后 按 节点 内 权重 和 更 新 环 权 重 ， 区 间 权 重 更 新 为 
新 节点 权重 并 继续 迭代 直至 无 改进 外 ， 示 意图 如 图 5 
所 示 。 该 算法 的 优势 在 于 : 可 以 根据 需要 定义 社区 
密度 ; 四 适用 于 有 向 有 权 图 ; 回 不同 社区 是 连通 的 ; 
由 算法 通过 迭代 得 到 社区 划分 树 ， 可 使 用 粒度 、 模 块 
度 等 中 间 变 量 。 


° 
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图 5 LEIDEN REFERA 
Fig.5 LEIDEN clustering algorithm 


4.4 ET RUEBEN A RRA 


为 有 效 学 习 知 识 图 谱 中 存在 的 潜在 知识 ， 对 于 任 
BEG, ARAL AG): VR, d<<|V|, ZEE] 
采样 过 程 中 高 维 信息 缺失 及 非 对 称 表示 等 问题 ， 模 型 
通过 层次 表示 学 习 的 方法 ， 利 用 LEIDEN 聚 类 算法 和 
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改进 随机 游 走 算法 对 知识 图 谱 的 租 入 过 程 进行 优化 。 
其 完整 的 表述 为 : 对 于 大 型 知识 图 谱 G(V,E) 及 其 聚 类 
FEI Go, G1…,Gi， 利 用 改进 随机 游 走 函数 /迭代 得 到 一 
系列 采样 Øf (C), FRAS G 图 乱入 表示 的 过 程 。 
4.4.1 改进 随机 游 走 髋 入 算法 

改进 模型 针对 知识 图 谱 的 多 关系 特征 ， 采 用 基于 
关系 路 径 的 有 偏 采样 策略 ， 使 结果 中 目标 节点 与 当前 
节点 在 语义 上 更 加 相近 并 能 有 效 反 映 图 谱 中 的 非 对 称 
关系 。 对 于 任意 关系 序列 PHT 
domain(rm)， 定 义 其 沿 关 系 路 径 + 游 走 的 概率 为 : 

In(o,, +1 

cE wet 

其 中 ，R, 表示 与 节点 v 相关 的 关系 集 ，w 代表 关 
系 权 重 。 上 述 处 理 方式 可 以 确保 不 会 忽视 偶发 关系 。 
对 于 关系 r+， 其 后 续 节 点 选择 的 概率 可 以 表示 为 : 

Oy) 
Don esi) dae Moan 
4.4.2 融合 LEDEN KIRATA 

TVA OR AEA, BEAU, ee 
入 模型 采用 结合 边 融 合 (Edge Collapsing) 与 星 形 融 合 
(Star Collapsing) 的 混合 粗 化 算法 对 大 型 图 进行 分 层 。 
边 融 合 是 将 连接 在 同一 节点 的 任意 两 边 合并 为 同一 个 
节点 。 实 验 结果 表示 ， 其 合并 顺序 不 会 对 结果 产生 明 
显 的 影响 中。 星 形 融合 基于 中 心 节点 (Hub) 对 边缘 压 
缩 。 由 于 中 心 节点 周围 的 点 具有 相似 的 结构 特征 ， 
此 采用 星 形 融合 可 以 很 好 地 保留 原 图 的 二 阶 相似 性 。 
在 实践 中 ， 模 型 首先 对 图 进行 星 形 融合 ， 然 后 进行 边 融 
合 ， 直 至 得 到 一 个 足够 小 的 图 ， 有 具体 过 程 如 图 6 所 示 。 


amsa “e 
vı 飞 Jv 要 
o N 一 r~ mp ee: ® V34 
| ap WS ( 3) F ors = 
v Ov va y v7 o” 
2 \ 4 Vi Vsa 


Vs6 


m T,„T=range(r;)= 


P(r =7)= (5) 


P(t, =x|(h=t r =r))= (6) 


(a) 边 融 合 (b) BGR 
图 6 图 粗 化 算法 示意 
Fig.6 Graph coarsening algorithm 
本 文 使 用 LEIDEN 算法 中 间 变 量 社区 树 (Dendro- 
gram) 实现 图 采样 。 对 于 各 级 划分 而 言 ， 将 社区 内 度 


最 高 的 点 视 为 中 心 节点 ， 逐 步 合 并 至 节点 数 小 于 阔 值 。 
4.4.3 分 层 随 机 游 走 谍 入 模型 

由 于 采样 方法 具有 非 对 称 的 阻塞 机 制 ， 对 于 任意 
节点 v， 其 转移 的 概率 和 Plv,r,x)<1， 阻 塞 随 机 游 走 
将 其 处 理 成 转移 概率 为 1- Pox) 的 自 环 。 本 模型 除 
顶层 节点 外 ， 其 余 节 点 将 以 该 概率 向 上 层 节点 转移 ， 
顶层 节点 则 为 自 环 ， 如 图 7 所 示 。 


图 7 层 间 游 走 采样 模型 示意 


Fig.7 Schematic diagram of interlayer sampling model 


由 于 上 层 节 点 是 真实 存在 ， 因 此 若 某 一 点 与 上 层 
节点 间 存 在 关系 则 以 该 关系 类 型 作为 路 径 谍 入 ; 如 果 
不 存在 则 以 统一 的 虚拟 关系 内 入 。 其 目的 在 最 终结 
中 体现 二 者 的 分 层 关系 。 

在 得 到 基于 关系 的 有 偏 抽样 路 径 后 ， 利 用 Skip- 
Gram 学 习 实 体 向 量 ， 并 得 到 知识 图 谱 的 初步 租 入 结 
果 。 对 于 三 元 组 tri(h,r,t)， 其 头 部 实体 的 艇 入 结果 在 
三 元 组 emb, 表示 为 h 的 初始 值 与 关系 般 入 结果 之 
All, Bllemb,=h+r,. Aub, HeABSCUMRA BAN emb = 
htt, SOPRA TEAR A SAAR INST, JAERI 
模型 特点 和 需要 直接 集成 到 现 有 的 表示 学 习 算 法 中 。 
模型 表示 如 算法 1 (图 8)， 具 体 流 程 如 图 9 所 示 。 


5 实验 结果 分 析 


为 验证 本 模型 的 做 入 结果 在 准确 性 和 速度 上 的 效 
果 ， 本 文选 择 知识 图 谱 中 链接 预测 任务 进行 实验 。 模 
型 代码 由 python 语言 编写 ， 基 于 Pytorch 框架 实现 。 


BE, EP, 白 林 燕 , E 剑 , WET, 48 军 
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算法 1: HRWP 改进 模型 
输入 : 知识 图 谱 G 
输出 : RAAR Embeddings 

1 P< LEIDEN(G) 

2 while |P| < Gy 

3 Guz © G 

4 Prefined -DENDROGRAM (G, P) 

5 G<AGGREGATE(G, Prefined) 

6 Pe {{v| vec, vec}, CEP} 

7 while |G;| >e*G 

8 Gr- EDGE COL(STAR COL (Gorg) ) 

9 Corpus = FRW_REL (FRW(G»,Gi,°**.GL)) 

10E mbeddings = SKIP_GRAM(corpus) | | 


图 8 HRWP 改进 模型 算法 


Fig.8 HRWP improved model algorithm 


Knowledge 
graph 


coarsen 


train 


Skip-gram 


图 9 HRWP 模型 总 体 示意 


Fig.9 HRWP model general schematic 


实验 主机 使 用 Intel(R) Core(TM) i7-11800H 处 理 器 及 

NVIDIA GeForce RTX 3070。 实 验 中 使 用 FB15K-237 怨 

和 WN18RR 思 数据 集 进行 评估 ， 具 体 统计 信息 如 表 2 

所 示 。 实 验 将 在 精度 和 时 间 角 度 与 传统 模型 进行 比较 。 
表 2 实验 数据 集 信息 


Table 2 Experimental dataset information 


数据 集 FB15K-237 WN18RR 
实体 数量 /个 14 541 40 943 
关系 数量 /个 237 11 
训练 集 大 小 /组 272 115 86 835 
验证 集 大 小 /组 17 535 3 034 


5.1 聚 类 结果 的 比较 分 析 


为 直观 地 展示 HRWP 模型 中 粗 化 算法 保留 的 结构 
特征 ， 本 文 分 别 将 不 同 训 练 数据 集 各 层 间 表示 结果 通 
过 二 维 可 视 化 形式 表示 ， 如 图 10 所 示 。 结 果 显 示 训 练 
集 FB15K-237 与 WN18RR 相 比 具有 更 强 的 中 心 聚集 
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PE; LEIDEN 聚 类 算法 能 更 好 地 保留 空间 结构 ， 并 很 
好 地 作为 后 续 层 上 布局 的 扩展 ， 而 力 引 导 算 法 (Force- 
direct， 原 HARP 采用 的 算法 ) 在 边 融合 和 星 形 融 合 上 
有 更 好 的 效果 ， 但 在 不 同 层 间 结 构 的 保留 效果 上 并 不 
理想 。 


(1) FBISK 


(2) WN18 RR 


(c) Leiden coarse (d) Leiden coarse 


(e) Force-direct coarse (f) Force-direct coarse 


图 10 模型 聚 类 结果 可 视 化 
Fig.10 Visualization of model clustering results 
图 11 展示 了 模型 中 混合 粗 化 方法 在 测试 图 中 的 效 
果 。 结 果 显 示 ， 对 于 不 同 图 第 一 步 粗 化 操作 都 能 融合 
50%。 随 着 粗 化 过 程 的 继续 所 有 图 的 规模 都 以 指数 规 
模 下 降 。 在 第 5 至 8 级 后 ， 图 中 的 节点 和 边 的 规模 均 


(a) FB15K (b) WN18_RR 
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9 12 
coarsening level coarsening level 


图 11 粗 化 图 的 节点 / 边 与 原始 图 的 比值 ( 取 对 数 ) 
Fig.11 Ratio of nodes/edges of coarsened graph to the original 


graph (logarithm) 
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低 于 1%。 另 外 ， 图 中 可 以 看 出 不 同 测试 图 中 边 的 融合 
速度 均 快 于 结 点 的 融合 速度 ， 但 二 者 收敛 趋势 相同 。 
这 也 符合 模型 边 融合 与 星 型 融合 相 结合 的 特征 。 

图 12 为 LEIDEN 算法 下 不 同 层级 间 模 块 度 的 变化 
曲线 。 从 图 中 可 以 看 出 LEIDEN 作为 贪心 算法 ， 可 以 
快速 收敛 至 模块 度 最 大 值 ， 缺 点 是 结果 不 具备 稳定 性 。 


(a) FBISK (b) WN18_RR 


E 


> > 
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图 12 不 同 层级 间 模 块 度 变化 


Fig.12 Modularity changes between different levels 


5.2 表示 时 间 的 比较 分 析 


本 广 将 讨论 模型 针对 不 同 数据 集中 对 训练 时 间 的 
改进 效果 。 图 13 中 所 示 的 是 HRWP 与 对 照 模型 均 达 
到 收敛 所 需 时 间 的 示意 图 。 从 图 上 可 以 看 出 仅 采 用 
HRWP 所 需 时 间 在 两 数据 集 上 所 需 时 间 均 远 小 于 对 照 模 
型 。 另 外 ， 采 用 HRWP 框架 的 融合 模型 训练 时 间 基 本 小 
于 二 者 训练 时 间 的 总 和 ， 因 此 认为 HRWP 模型 的 结构 可 
用 于 其 他 模型 的 预 训练 结果 ， 并 有 效 地 将 缩短 其 训练 时 
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图 13 不 同 数据 集训 练 时 间 统 计 


Fig.13 Training time statistics of different datasets 


间 。 但 对 于 复杂 模型 (如 DistMult 和 ComplEx), HRWP 
训练 的 结果 会 降低 收敛 速度 。 因 此 可 认为 对 于 多 维 表 
示 的 复杂 模型 ， 将 表示 结果 统一 对 原 模型 的 速度 并 无 
提升 ， 因 此 不 适合 与 HRWP 模型 搭配 使 用 。 

为 讨论 不 同 采样 算法 对 训练 速度 的 影响 ， 本 文选 
择 在 农业 图 谱 上 选择 不 同 数量 的 结 点 进行 对 比 实验 。 
图 谱 中 节点 数 为 100 到 100 000， 并 控制 节点 平均 度 为 
10。 从 图 14 中 可 以 观察 到 HWRP 的 运行 时 间 趋 势 与 
FRW 算法 相同 。 与 对 照 方法 相 比 ，HWRP 模型 中 图 粗 
化 与 延 拓 过 程 所 带 来 的 时 间 开 销 可 以 忽略 不 计 ， 特 别 
是 当 节 点 规模 较 大 时 。 此 外 ， 根 据 图 中 不 同 组 模型 采 
样 结果 走势 可 知 ，HRWP 模型 对 原 算法 时 间 复 杂 度 几 
乎 没有 影响 。 


5.3 表示 效果 的 比较 分 析 


本 节 主 要 比较 HRWP 在 FB15k-237 和 WNI8RR 
数据 集中 与 其 他 算法 在 表示 效果 上 的 分 析 。 本 文 分 别 
使 用 MRR (Mean Reciprocal Rank, MRR) 和 Hits@k 上 
作为 判断 模型 效果 的 度量 。 其 中 MRR 定义 为 测试 集 上 
三 元 组 倒数 的 算术 平均 值 ， 其 数值 越 大 模型 性 能 越 好 。 
Hits@k 代 表单 个 排序 位 于 前 有 的 三 元 组 比率 ， 其 数值 
越 大 代表 模型 效果 越 好 ， 其 中 通常 取 1、3 和 10。 实 
验 结果 如 表 3 所 示 ， 对 于 FB15k-237 数据 集 ， 引 入 
HRWP 模型 后 ， 各 指标 基本 优 于 或 与 原始 模型 持平 。 
结合 HRWP 的 TransE、DistMult、ComplEx 和 RotatE 
算法 ， 各 指标 平均 增长 了 2%。 与 神经 网 络 方法 比较 ， 
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基于 HARP 框架 的 农业 知识 图 谱 
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图 14 模型 训练 时 间 随 节点 数量 变化 分 析 
Fig.14 Analysis ofmodel training time varying with the number 


ofnodes 


快速 模型 的 MRR 略 低 于 CompGCN。 在 WN18RR 数 
据 集 上 ， 非 神经 网 络 模型 的 各 指标 在 加 入 快速 框架 后 
有 显著 提升 。 这 表明 ， 本 文 提 出 的 关系 路 径 游 走 方法 
使 传统 算法 具备 基于 神经 网 络 模型 的 效果 ， 并 有 效 降 
低 训 练 成 本 。 此 外 ， 从 表 3 还 能 看 出 ， 引 入 HRWP 模 


型 后 ， 不 具备 识别 非 对 称 关 系 的 TransE 模型 进一步 提 
升 至 与 RotatE 相近 。 因 此 可 以 初步 认定 模型 能 够 处 理 
非 对 称 关 系 。 

为 进一步 验证 其 在 复杂 关系 下 的 表现 性 能 ， 本 文 


设计 了 额外 实验 ， 结 果 如 表 4。 实 验 将 关系 类 型 进一步 
划分 为 1 对 1 (1-1)、1 对 多 (1-N) 以 及 多 对 多 


表 3 FB15K-237 & WNI8RR 数据 集 上 关系 预测 性 能 指标 对 比 


Table 3 Comparison of relationship prediction performance indexes in FB15K-237 and WN18RR datasets 


未 FBI5K-237 WNI8RR 

MRR Hits@1 Hits@3 Hits@10 MRR Hits@1 Hits@3 Hits@10 
TransE 0.292 0.192 0.325 0.478 0.227 0.162 0.233 0.501 
TransE-HRWP 0.322 0.232 0.334 0.464 0.252 0.192 0.284 0.510 
DistMult 0.241 0.155 0.263 0.419 0.430 0.390 0.440 0.490 
DistMult-HRWP 0.284 0.194 0.316 0.463 0.467 0.414 0.461 0.509 
RotatE 0.301 0.211 0.331 0.483 0.465 0.428 0.492 0.571 
RotatE-HRWP 0.334 0.245 0.349 0.543 0.484 0.438 0.499 0.583 
ComplEx 0.248 0.149 0.283 0.423 0.440 0.412 0.463 0.517 
ComplEx-HRWP 0.260 0.201 0.281 0.439 0.460 0.409 0.491 0.579 
CompGCN 0.343 0.257 0.367 0.523 0.479 0.443 0.494 0.546 
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(N-N), ， 得 到 不 同 算法 在 FB15K-237 数据 集 上 关系 预 
测 的 准确 率 。 结 果 表明 ， 无 论 在 哪 种 类 型 的 非 对 称 关 系 
E, 融合 HRWP 的 TransE 模型 基本 表现 出 了 与 RotatE 
相近 的 性 能 ， 这 进一步 证 明了 模型 在 处 理 非 对 称 关系 
上 的 优势 。 
表 4 FBISK-237 上 关系 预测 性 能 指标 对 比 (Hits@10) 
Table 4 Comparison of performance indexes of relationship 


prediction on FB15K-237(Hits@10) 


项 1-1 1-N N-N 
TransE 0.616 0.463 0.224 
TransE-HRWP 0.663 0.417 0.276 
RotatE 0.729 0.612 0.302 


为 验证 模型 在 农业 知识 图 谱 上 的 表现 效果 ， 本 文 
选取 关系 预测 任务 获得 实验 数据 如 表 5 所 示 。HRWP 
模型 虽然 指标 偏 低 ， 但 Hits@10 指标 与 其 他 模型 差距 
较 小 ， 且 作为 预 表示 时 模型 准确 性 有 显著 提升 。 结 果 
表明 在 准确 率 要 求 不 高 时 HRWP 模型 基本 满足 需求 ， 
而 对 于 要 求 较 高 的 任务 其 可 以 与 其 他 模型 结合 进一步 
提升 表示 效果 。 

表 5 农业 知识 图 谱 上 性 能 指标 对 比 


Table 5 Performance index comparison in agricultural 


knowledge graph 
项 MRR Hits@1 Hits@3 Hits@10 
HRWP 0.201 0.113 0.207 0.454 
HRWP-RotatE 0.328 0.232 0.321 0.482 
RotatE 0.324 0.228 0.319 0.478 
CompGCN 0.365 0.303 0.424 0.526 


为 验证 HR WP 模型 中 不 同 机 制 对 表征 学 习 效 果 的 
改善 效果 ， 本 文采 用 交叉 实验 进行 要 验证 。 实 验 分 别 
从 框架 中 去 除 随 机 游 走 模块 和 层 间 艇 人 单元 改 为 随机 
艇 入 和 单 层 表 示 学 习 ， 并 观察 其 在 散 入 时 间 和 准确 性 
地 表现 ， 实 验 结果 如 表 6 所 示 。 其 中 HRWP-H 表示 分 
层 随机 初始 化 戏 入 ，HRWP-RW 表示 保留 关系 路 径 下 
随机 游 走 的 单 层 僚 入 ; RotatE-HRWP 表示 完整 融合 模 
型 。 实 验 中 模型 符 入 时 间 如 图 15 所 示 。 从 结果 可 以 看 
出 ，HRWP-H 的 表示 结果 与 原始 模型 的 表示 结果 基本 
相同 ， 而 HRWP-RW 比 原始 模型 在 性 能 上 提高 了 约 
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3%。 该 结果 表明 引入 改进 随机 游 走 算法 可 以 有 效 地 表 
达 知 识 图 谱 中 关系 信息 。 
表 6 交叉 模型 在 FB15K-237 数据 集 上 的 准确 性 
Table 6 Accuracy of cross model on FB15K-237 dataset 


项 MRR Hits@! Hits@3 Hits@10 
RotatE 0.301 0.211 0.331 0.483 
RotatE-HRWP-H 0.295 0.218 0.329 0.503 
RotatE-HRWP-RW 0.339 0.241 0.331 0.503 
RotatE-HRWP 0.334 0.245 0.349 0.543 


在 相同 收敛 效果 下 RotatE 和 RotatE-HRWP-RW 的 
训练 时 间 均 超过 60 分 钟 ， 而 RotatE-HRWP-H 和 RotatE- 
HRWP 的 训练 时 间 照 对 照 组 均 有 所 下 降 。 这 表明 基于 
HARP 的 分 层 表 示 学 习 框 架 可 以 有 效 提升 模型 的 训练 
速度 。 交 叉 实验 表明 ，HRWP 框架 中 分 层 矢 和 加快 了 
知识 图 谱 表 示 学 习 的 训练 速度 ， 而 改进 随机 游 走 算法 
的 引入 则 有 效 地 提高 了 表示 学 习 的 表示 性 能 。 


time/s 


RotatE 


RotatE-HRWP-H RotatE-HRWP-RW RotatE-HRWP 


图 15 交叉 模型 在 FBISK-237 数据 集 上 训练 时 间 
Fig.15 Training time of the cross model on FB15K-237 dataset 


本 文 提 出 基于 HARP ERA YRKAR EIEE 
入 模型 通过 关系 路 径 下 的 随机 游 走 策略 和 层 间 游 走 相 
结合 ， 能 够 有 效 表示 农业 知识 图 谱 中 关系 散人 的 语法 
和 层级 关系 ， 同 时 有 效 降低 训练 所 需 资源 的 消耗 。 本 
文 在 真实 农业 知识 图 谱 上 对 模型 嵌入 速度 和 表示 效果 
等 方面 进行 实验 ， 实 验 数 据 表 明 HRWP 可 以 有 效 提高 


原始 模型 性 能 ， 同 时 显著 减少 表示 学 习 的 训练 时 间 。 


ma 


模型 具有 良好 的 可 扩展 性 ， 可 以 在 直接 应 用 于 
其 他 评分 函数 的 模型 。 未 来 研究 将 更 关注 对 关系 


对 象 层级 性 的 讨论 和 层次 分 解 效 果 的 分 析 。 
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Representation Model of Agricultural Knowledge Graph 
Based on the HARP Framework 


CHEN Caiming', FENG Jianzhong", BAI Linyan”’, WANG Jian’, XIE Nengfu', ZOU Jun! 
(1. Agricultural Information Institute of CAAS, Beijing 100081; 2. Institute of Remote Sensing and Digital Earth, Chinese Academy of 


Sciences, Beijing 100094; 3. International Research Center of Big Data for Sustainable Development Goals, Beijing 100094) 


Abstract: [Purpose/Significance] In the era of big data, the volume of data is growing at an exponential rate. One of the most prominent 


areas affected by this growth is the field of agriculture. The use of agricultural knowledge graphs, which serve as key infrastructures for 


managing agricultural knowledge, has expanded significantly. However, as the number of nodes and relationships within these graphs 


increase, so too does their complexity. This complexity gives rise to new challenges in training and representing such large-scale 


knowledge graphs. It is therefore of great significance to investigate methods for speeding up the embedding process of agricultural 


knowledge graphs, while preserving their structural integrity and minimizing resource consumption. This research embarks on a novel 


exploration to address this issue. It stands out from previous studies by concentrating on a hierarchical representation model for 


agricultural knowledge graphs. The potential impacts of this research on propelling the advancement of the field and on addressing 


significant real-world problems are substantial. [Method/Process] To confront this challenge, we propose a hierarchical representation 


model for agricultural knowledge graphs rooted in the HARP framework. Our model leverages the inherent hierarchical features of the 
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agricultural knowledge graph. It incorporates an improved random walk strategy based on relational paths to semantically model 
relationship objects within the agricultural knowledge graph. This innovative approach effectively retains the hierarchy and asymmetrical 
relationship structure of the nodes in the graph, setting our work apart from previous research. The validity of our proposed model is 
fortified by a strong foundation of theoretical and empirical evidence. [Results/Conclusions] Our experimental results reveal several key 
findings. First, the hierarchical random walk with path (HRWP) model using the LEIDEN algorithm can preserve the spatial structure 
more effectively and converge more quickly to the maximum modularity, in comparison to the HARP framework. Second, the fusion 
model employing HRWP takes less training time than the total training time of both models combined, without significantly affecting the 
time complexity of the original algorithm. Third, we observed that when traditional algorithms are integrated with HRWP, there is an 
average improvement of 2% across various indicators, with a substantial enhancement in non-neural network models. Therefore, our 
proposed model not only accurately represents the agricultural knowledge graph but also effectively reduces the training time. Despite 
the promising outcomes of our study, there remain areas of potential improvement. One such area is the need for a more detailed 
discussion on the hierarchical nature of relationship objects in future research. This provides potential avenues for future exploration in 
this field. The findings of this research carry profound implications for the development of agricultural knowledge management systems, 
offering an effective approach to handle the burgeoning complexity of knowledge graphs. 


Keywords: knowledge graph; random walk; representation learning; the hierarchical random walk with path (HRWP) framework 
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